Leyline: Directivas de Caché KV para Inferencia Agentiva
Leyline introduce directivas para editar la caché KV sin re-prefill completo. Reduce latencia hasta 241 ms y mejora tasa de resolución en +14.3 pp.
Leyline introduce directivas para editar la caché KV sin re-prefill completo. Reduce latencia hasta 241 ms y mejora tasa de resolución en +14.3 pp.
Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.
Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.
STaR-KV comprime la caché KV en modelos GUI sin entrenamiento, reduciendo memoria GPU un 40% sin penalizar precisión. Descubre cómo.
WaveFilter mejora el rendimiento de LLMs de difusión en contexto largo mediante filtrado guiado por wavelets del caché KV.
Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.
Descubre COVER: verificación eficiente que elimina oscilaciones y acelera la inferencia en decodificación difusiva revocable.
<meta name=description content=Compresión de caché KV optimiza la decodificación de textos largos reduciendo memoria y acelerando inferencia en modelos de lenguaje.>
<meta name=description content=VideoMLA presenta difusión de video autoregresiva a escala de minutos usando caché KV latente de bajo rango. Una innovación eficiente para generación de video largo.>
Cuantización multiplicativa de cuaterniones de Hurwitz para compresión de caché KV. Mejora la eficiencia de memoria en modelos de lenguaje sin perder precisión.